ESIEA Datalab Logiciel de Nettoyage et Préparation de Données
نویسنده
چکیده
Il est communément admis que le temps de préparation des données peut occuper jusqu’à 80% du temps lors d’un projet industriel de fouille de données (Pyle, 1999). L’hétérogénéité des sources, la présence de valeurs manquantes, les erreurs de saisie ou de calcul, les pannes de capteurs, une mauvaise fusion de données sont autant de causes qui peuvent introduire erreurs et incohérences dans une table de données. ESIEA Datalab est une plateforme évolutive programmée en Java qui met à disposition de nombreux outils pour aider à la détection d’incohérences, la correction d’erreurs, la transformation ou la contrainte de variables, etc.
منابع مشابه
Coron : Plate-forme d'extraction de connaissances dans les bases de données
Né d’un besoin logiciel pour une étude de cohorte [1], CORON est maintenant une plate-forme logicielle d’extraction de connaissances à part entière, utilisée dans divers domaines, voir par exemple [4, 5, 6]. Destinée à un usage scientifique et pédagogique, la plate-forme CORON s’articule autour de plusieurs modules pour la préparation puis la fouille de données, le filtrage et l’interprétation ...
متن کاملPréparation d'un vaccin anti-aphteux concentré inactivé trivalent O-A-SAT 1 avec des virus de culture obtenus sur lignée cellulaire de rein de hamster BHK 21 de Macpherson et Stocker
متن کامل
Détection de clefs pour l'interconnexion et le nettoyage de jeux de données
Résumé : Cet article propose une méthode d’analyse de jeux de données du Web publiés en RDF basée sur les dépendances de clefs. Ce type particulier de dépendances fonctionnelles, largement étudié dans la théorie des bases de données, permet d’évaluer si un ensemble de propriétés constitue une clef pour l’ensemble de données considéré. Si c’est le cas, il n’y aura alors pas deux instances posséd...
متن کاملNettoyage des données XML : combien ça coûte ?
Résumé. L'objectif de cet article est de présenter un travail en cours qui consiste à proposer, implanter et valider expérimentalement un modèle pour estimer le coût d’un processus de nettoyage de documents XML. Notre approche de calcul de coût est basée sur une méthode par calibration selon une analyse probabiliste. Pour cela, nous proposons de calculer des probabilités de pollution et au préa...
متن کامل